Các ví dụ Điều_khiển_tối_ưu

Một chiến thuật trong nhiều bài toán điều khiển tối ưu để giải gần đúng (đôi khi được gọi là shadow price) λ ( t ) {\displaystyle \lambda (t)} . Tóm tắt trong một số giá trị biên độ của biến trạng thái mở rộng hoặc thu gọn ở lần tiếp theo. Giá trị biên độ này không chỉ là độ lợi tích lũy cho lần kế tiếp mà còn liên quan tới thời gian thực hiện của chương trình. Thật tuyệt khi λ ( t ) {\displaystyle \lambda (t)} có thể được giải bằng giải tích, nhưng thường ta chỉ có thể mô tả nó đủ tốt để trực giác có thể nắm bắt được tính chất của lời giải và một chương trình giải phương trình có thể giải bằng phương pháp số cho các giá trị.

Khi đã đạt được λ ( t ) {\displaystyle \lambda (t)} , giá trị tối ưu lần thứ t cho điều khiển có thể thường được giải như là một phương trình vi phân có điều kiện đã biết về λ ( t ) {\displaystyle \lambda (t)} . Một lần nữa khá ít khi, đặc biệt trong các bài toán thời gian liên tục, ta thu được giá trị của điều khiển hoặc trạng thái một cách rõ ràng. Thường chiến thuật này là để giải các ngưỡng và vùng mà mô tả điều khiển tối ưu và sử dụng một chương trình giải bằng phương pháp số để cô lập các giá trị được chọn thực tế theo thời gian.

Thời gian hữu hạn

Xem xét bài toán một chủ mỏ, người phải quyết định phải đãi quặng từ mỏ của mình tại phần trăm nào. Ông ta nắm quyền đối với lượng quặng nói trên từ ngày  0 {\displaystyle 0}  đến ngày  T {\displaystyle T} . Tại ngày  0 {\displaystyle 0}  có  x 0 {\displaystyle x_{0}}  lượng quặng dưới mặt đất, và lượng quặng tức thời là  x ( t ) {\displaystyle x(t)}  suy giảm tỉ lệ chủ mỏ trích xuất nó u(t). Chủ mỏ trích xuất qựng tại chi phí  u ( t ) 2 / x ( t ) {\displaystyle u(t)^{2}/x(t)}  và bán quặng tại một giá không đổi  p {\displaystyle p} . Ông ta không tính giá trị quặng nằm lại dưới mặt đất tại thời điểm  T {\displaystyle T} (không có "giá trị bỏ đi" ở đây). Ông ta chọn tốc độ trích xuất theo thời gian u(t) để tối đa hóa lợi nhuận trong thời kỳ làm chủ với thời gian chiết khấu bằng không.

1. phiên bản thời gian rời rạc

Người quản lý tối đa hóa lợi nhuận  Π {\displaystyle \Pi } :

Π = ∑ t = 0 T − 1 [ p u t − u t 2 x t ] {\displaystyle \Pi =\sum _{t=0}^{T-1}\left[pu_{t}-{\frac {u_{t}^{2}}{x_{t}}}\right]}

tùy thuộc vào định luật tiến hóa cho biến trạng thái x t {\displaystyle x_{t}}

x t + 1 − x t = − u t {\displaystyle x_{t+1}-x_{t}=-u_{t}\!}

Hình thành công thức Hamilton và vi phân:

H = p u t − u t 2 x t − λ t + 1 u t {\displaystyle H=pu_{t}-{\frac {u_{t}^{2}}{x_{t}}}-\lambda _{t+1}u_{t}} ∂ H ∂ u t = p − λ t + 1 − 2 u t x t = 0 {\displaystyle {\frac {\partial H}{\partial u_{t}}}=p-\lambda _{t+1}-2{\frac {u_{t}}{x_{t}}}=0} λ t + 1 − λ t = − ∂ H ∂ x t = − ( u t x t ) 2 {\displaystyle \lambda _{t+1}-\lambda _{t}=-{\frac {\partial H}{\partial x_{t}}}=-\left({\frac {u_{t}}{x_{t}}}\right)^{2}}

Khi người chủ mỏ không định giá quặng còn lại tại thời điểm T {\displaystyle T} ,

λ T = 0 {\displaystyle \lambda _{T}=0\!}

Sử dụng các phương trình ở trên, ta dễ dàng tìm ra các chuỗi x t {\displaystyle x_{t}} và λ t {\displaystyle \lambda _{t}}

λ t = λ t + 1 + ( p − λ t + 1 ) 2 4 {\displaystyle \lambda _{t}=\lambda _{t+1}+{\frac {(p-\lambda _{t+1})^{2}}{4}}} x t + 1 = x t 2 − p + λ t + 1 2 {\displaystyle x_{t+1}=x_{t}{\frac {2-p+\lambda _{t+1}}{2}}}

và sử dụng các điều kiện đầu và turn-T, các chuỗi x t {\displaystyle x_{t}} có thể được tìm ra rõ ràng, cho bởi u t {\displaystyle u_{t}} .

2. phiên bản thời gian liên tục

Người quản lý tối đa hóa lợi nhuận Π {\displaystyle \Pi } :

Π = ∫ 0 T [ p u ( t ) − u ( t ) 2 x ( t ) ] d t {\displaystyle \Pi =\int _{0}^{T}\left[pu(t)-{\frac {u(t)^{2}}{x(t)}}\right]dt}

tùy thuộc vào định luật tiến hóa cho biến trạng thá  x ( t ) {\displaystyle x(t)}

x ˙ ( t ) = − u ( t ) {\displaystyle {\dot {x}}(t)=-u(t)}

Hình thành công thức Hamilton và vi phân:

H = p u ( t ) − u ( t ) 2 x ( t ) − λ ( t ) u ( t ) {\displaystyle H=pu(t)-{\frac {u(t)^{2}}{x(t)}}-\lambda (t)u(t)} ∂ H ∂ u = p − λ ( t ) − 2 u ( t ) x ( t ) = 0 {\displaystyle {\frac {\partial H}{\partial u}}=p-\lambda (t)-2{\frac {u(t)}{x(t)}}=0} λ ˙ ( t ) = − ∂ H ∂ x = − ( u ( t ) x ( t ) ) 2 {\displaystyle {\dot {\lambda }}(t)=-{\frac {\partial H}{\partial x}}=-\left({\frac {u(t)}{x(t)}}\right)^{2}}

Khi người chủ mỏ không định giá quặng còn lại tại thời điểm T {\displaystyle T} ,

λ ( T ) = 0 {\displaystyle \lambda (T)=0}

Sử dụng các phương trình ở trên, ta dễ dàng giải được các phương trình vi phân có nghiệm u ( t ) {\displaystyle u(t)} và λ ( t ) {\displaystyle \lambda (t)}

λ ˙ ( t ) = − ( p − λ ( t ) ) 2 4 {\displaystyle {\dot {\lambda }}(t)=-{\frac {(p-\lambda (t))^{2}}{4}}} u ( t ) = x ( t ) p − λ ( t ) 2 {\displaystyle u(t)=x(t){\frac {p-\lambda (t)}{2}}}

và sử dụng các điều kiện đầu và lần thứ-T, các hàm có thể được giải bằng phương pháp số.